查看原文
其他

回归实践:生成式人工智能三大版权问题解析

朱开鑫 腾讯研究院
2024-08-26
朱开鑫 腾讯研究院高级研究员


生成式人工智能“顾名思义”就是用来生成创作内容的,所以作为内容领域定分止争的版权法一直为各界高度关注。目前,关于生成式人工智能版权议题的讨论也愈发聚焦,主要涉及三个方面:第一,大模型训练对于作品的利用,是否适用版权法上“合理使用”等限制与例外制度;第二,利用大模型生成的内容,能否受到版权保护;第三,大模型输出内容发生侵权的情形下,服务提供者的责任承担和注意义务的界定。本文希望基于国内外相关立法规则和司法实践的最新动态,并结合当下生成式人工智能产业与技术的发展现状,就上述三个议题涉及的争议关注焦点和应对解决思路加以分析、探讨。


模型训练阶段:版权责任豁免问题的思考。
从生成式人工智能全产业周期来看,模型训练阶段的版权问题处于起始环节,因而受到各界的广泛关注。目前来看,生成式人工智能领域的案件争议也大都聚焦于这一阶段:根据不完全统计,截止2024年4月,美国大模型领域实际在诉案件共有19起,其中14起为版权侵权案件,核心争议便是未经授权利用他人作品进行模型训练。在国内,相关案件争议实际也已经出现。根据公开报道,2023年11月国内某内容平台便因未经授权利用他人美术作品,训练旗下文生图产品,被四位绘画创作者起诉至北京互联网法院,该案件仍在审理阶段。目前来看,对于各界广泛讨论的“模型训练阶段的责任豁免问题”有以下四点关注值得思考。

第一,探讨前提。

根据法律的基本逻辑,责任豁免的探讨应当建立在侵权认定的基础之上。但当下各界关于大模型训练能否受到版权法上“合理使用”等制度豁免的论证讨论,往往容易忽视了一个前提基础,即实践中模型训练过程到底涉及哪些对于作品的利用行为。而这些作品利用行为能否落入到现行版权法赋予版权人的专有权利规制范畴。从技术层面来看,大模型训练主要涉及作品获取、作品存储和作品学习三个阶段。对于这三个阶段的作品利用行为是否受到版权法规制,目前各界远未形成共识。

作品获取阶段,法律层面判断的核心在于模型训练厂商在搜集获取语料内容的过程中是否存在版权法上破坏“技术保护措施”和删除“权利管理信息”等违法行为。作品存储阶段,主要涉及是否存在侵害他人作品“复制权”的行为,但也有观点指出这一复制行为属于“中间复制”(是后续作品学习行为的前置环节)和“非公开复制”,并不受到版权法规制。而作品学习阶段,是否受到版权法规制更是存在很大争议。简单来说,在大模型出现之前,人类学习他人作品进行再创作并不当然被视为一种侵权行为。只是当下大模型对于人类在先作品学习利用的效率更高、商业化程度更明显,故而受到基于上下游利益失衡担忧带来的质疑。

第二,竞争环境。

模型训练阶段相关版权规则的设计,还涉及国际层面产业竞争制度环境的问题。因为模型训练动辄涉及千亿级、万亿级的参数语料训练,如果一个国家规定模型训练必须事前完全获得每一个语料作品的授权,而另一个国家则予以完全责任豁免,则分属两国的大模型厂商的发展环境便会存在截然不同的差异。

很多国家和地区其实都已经认识到了这个问题。例如,2024 年 3 月 13 日,欧洲议会批准的《人工智能法案》(最新文本)便强调需要确保通用AI模型服务商之间的公平竞争环境。其第60j条规定,无论支撑通用AI模型训练的版权利用行为发生在哪个司法管辖区,任何在欧盟市场上提供通用AI模型的服务商都应遵守欧盟版权法关于“文本与数据挖掘”情形设置的相关义务,任何服务商都不应通过适用低于欧盟版权标准而在欧盟市场上获得竞争优势。

第三,现行立法。

应当说我国现行《著作权法》第四节“权利的限制”项下第24条关于“合理使用”的规定以及第25条关于“法定许可”的规定都无法精确涵盖大模型训练这一问题。虽然目前立法层面对这一问题无明确规定,但司法层面是存在相关规则适用接口的。2011年12月20日,最高人民法院发布的《关于充分发挥知识产权审判职能作用推动社会主义文化大发展大繁荣和促进经济自主协调发展若干问题的意见》第8条规定“在促进技术创新和商业发展确有必要的特殊情形下,考虑作品使用行为的性质和目的、被使用作品的性质、被使用部分的数量和质量、使用对作品潜在市场或价值的影响等因素,如果该使用行为既不与作品的正常使用相冲突,也不至于不合理地损害作者的正当利益,可以认定为合理使用。”一定程度表明,类似于美国版权法中的合理使用“四要素分析法”,在我国存在适用可能性。

也观察到,在美国司法实践中已经存在倾向认定大模型训练符合“合理使用四要素分析法”的裁定。2023年9月25日,美国特拉华州地方法院就“汤森路透诉Ross”人工智能版权侵权案,做出了针对简易判决动议的驳回裁定。法院倾向于支持复制、利用版权作品用于训练AIGC模型构成合理使用(符合“转换性使用”中的“中间复制”标准),前提是如果相关模型仅是学习在先作品中自然语言内含的模式、相关性等,然后根据用户提问,输出不同于被训练语料作品的新内容。但如果只是将原作品复制存储进人工智能模型,然后以类似检索工具的方式,根据用户提问输出与原作品相同的内容,则无法构成合理使用。

第四,未来方向。

生成式人工智能大模型训练阶段的版权责任豁免问题,涉及版权保护、激励创作以及技术创新、产业发展等多重价值目标,无疑需要更加平衡和科学的制度设计。如果从大模型领域的国际竞争环境出发,基于促进国内生成式人工智能产业和技术发展,豁免模型训练阶段的版权责任,也需要审慎思考和科学论证是否以及如何设计搭建具有实操性的版权人“退出、保护机制”。值得关注,目前针对“模型训练”存在成文法规定的国家和地区,在原则上豁免模型训练厂商事前需获得作品利用授权的基础上,也都通过“例外的例外”给予了作品权利人一定的权利保护和训练退出机制。

2024 年 3 月 13 日,欧洲议会批准的《人工智能法案》(最新版本)关于模型训练版权责任的要求,实际上转致到2018年9月12日通过的《单一数字市场版权指令》关于“文本和数据挖掘”的规定。其一,模型训练版权责任豁免的前提是大模型厂商需要合法获取作品;其二,商业目的模型训练,版权人享有通过适当方式(至少包括机器可读的方式)事先保留这一权利;其三,模型厂商需要制定相应的规则,识别和尊重商业目的下版权人保留自身作品被模型训练的权利选择。2024年3月,谷歌便因为在训练Gemini产品时违反上述相关要求,而被法国竞争管理局处以2.5亿欧元的罚款。

日本2018年修订《著作权法》提出“非欣赏性利用”条款。该条款虽然不区分商业和非商业情形,完全豁免了人工智能深度学习(也即模型训练)问题,却也规定了“但书条款”——即不得对版权人利益造成不当损害。日本文化审议会著作权分科会的相关解读表示,如果版权人采取了技术保护措施防止自身作品被用于人工智能学习,则规避技术措施进行模型训练的行为就落入“但书”的范畴。


内容输出阶段:生成物可版权性问题的分析。 

第一,争议聚焦。

关于人类利用人工智能大模型工具创作内容能否构成作品、受到版权法保护的问题,各界的讨论由来已久。观察下来,一个很大的误区在于有时各方并没有清晰地界定好讨论的前提,将AI自动生成和AI辅助创作下的内容版权属性判定混在一起。但目前实践中,该问题的核心争议其实并不存在于法律层面,而是存在于事实认定层面。

无论是中国还是美国以及国内各界,应当说在法律层面对于版权作品的认定标准并没有太大争议,都认为作品需要体现自然人的独创性贡献。也即构成版权法下保护的作品,只能是AI辅助人类创作的内容,而非完全由AI自动生成的内容。当然,在英国、爱尔兰、南非、乌克兰(邻接权模式)等国家现行版权法中存在“计算机作品”的规定,可以对纯AI自动生成的内容加以保护。只要该内容经由自然人做出必要的选择安排便可以,无需独创性层面的贡献。但目前来看,毕竟仅是全球立法例中的少数情形。

当下阶段,大模型生成内容可版权性问题的关键,实际存在于事实认定层面。即在现有生成式人工智能技术原理背景下,人类利用大模型生成内容的过程中能不能体现自身的独创性贡献。具体来讲是,当使用者利用大模型通过提示词构思、模型数值设定以及对生成物的多轮选择和提示词修改等行为生成了内容,那么在这一系列行为中,使用者是否具有独创性层面的控制力和可预见性,这是判定相关内容能否受到版权作品保护的核心。目前来看,越来越多的域内外案例实践也都聚焦于事实层面的认定论证。

第二,案例实践。

2023年11月27日,北京互联网法院对国内首例“AI文生图”案做出判决,明确表示涉案AIGC产品本质是使用者的辅助创作工具,从“构思涉案图片”(设计人物呈现方式、选择提示词、安排提示词顺序、设置相关参数)到“最终选定涉案图片”(根据初步图片,增加提示词、调整参数,多轮最终选择),能够体现使用者的独创性贡献。因而涉案图片构成受版权法保护的作品。

此前2023年1月16日,意大利最高法院在“The scent of the night案”中表示,在图像生成过程中使用软件,这一事实本身并不足以排除作品创作属性,而是需要更严格地去判断是否存在一定程度的独创性。需要法院去评估对工具的使用是否以及在多大程度上反映了使用者的独创性贡献。

2023年10月11日,捷克布拉格法院在“S.Š.诉TAUBEL LEGAL案”中也表示,提示词的设计者是否可以被作为图像作者,需要视具体情况而定:如果输入的提示词是作者独特的创作行为,对生成的图像有很大程度的贡献,那么在这种情况下,设计出提示词的人因此可以被视为该图像的作者,满足版权法规定的主体要件。

而美国版权局在2023年3月16日发布的《版权登记指南:包括人工智能生成材料的作品》,及目前决定的四起AIGC注册案件:2022年2月14日“最近的天堂入口”案;2023年2月21日“黎明的扎里亚”案;2023年9月5日“太空歌剧院”案;2023年12月11日“SURYAST”案,均拒绝授予利用大模型生成的内容以版权保护。美国版权局认为,不论创建的提示词多复杂,也不论经过多少轮提示词修改,使用者在利用大模型生成内容的过程中都无法体现自身的创作贡献。这明显也是一个事实判定问题而非法律标准问题。从2024 年 4 月 10 日,美国众议院司法委员会“人工智能与知识产权”最新听证会内容来看,各界已经明显体现出对美国版权局一概拒绝给予利用大模型生成内容以版权保护,对创新激励机制可能带来的负面影响的担忧。

第三,制度思考。

关于人工智能生成内容能否受到作品保护,目前可以从以下几个层面加以关注探讨。

从技术层面来看,生成式人工智能在当下发展阶段仍然仅是人类的辅助性创作工具,远没有达到突破“主客体、人物二分”的技术临界点。因此,对于人类利用生成式人工智能大模型创作的内容加以必要保护,可以实现版权法上“激励自然人创作”的内在制度目标。

从产业层面来看,有恒产者才会有恒心,不对人类利用大模型生成的内容加以版权法层面的妥当保护,可能会产生一系列负面问题:不仅可能会影响生成内容IP的后续授权和维权稳定性;也存在经由下游大模型使用动力的削减,进而反向影响上游大模型产研发投入的动力。

从制度层面来看,目前AI生成和非AI生成的内容,只是人类利用了不同的创作工具,而在生成内容的外在表现形式层面并无本质差异。因此,在法律层面无需过于激进的制度回应,现行版权法能够对这一问题加以涵摄回应。不论是创设新的作品类型还是新的邻接权客体类型,都可能引发与既有作品类型外观重合的问题。退一步来讲,即使借鉴英国的“计算机生成作品”模式,对人工智能生成内容设置权利范畴和保护期限的特殊限制,也存在诱导使用者隐瞒AI生成的反向制度激励问题,进而导致在实践中制度难以落地的风险。值得关注的是,自英国1988年创立计算机作品以来,仅衡平法院在2006年1月20日做出一例游戏画面被认定为计算机作品的相关判决,但已经不具备现实参考价值。


侵权责任阶段:服务商注意义务问题的探讨。

第一,尊重自治。

根据“权利之所在,责任之所在”的基本原则,哪一方主体享有利用人工智能生成内容的相关权利,哪方主体便需要承担对应内容可能引发的版权直接侵权责任。从目前各国产业实践来看,大多数AIGC平台都会通过“用户协议”的方式约定生成内容归使用者所有,并由使用者对生成内容的后续传播利用承担相应的责任。

当然,不同的平台也会从自身商业模式和使用者的不同类型(个人用户亦或不同规模的企业用户)出发,对于生成内容的利用权限、范围加以不同规定,但也都是在尊重用户选择和意思自治的范围内做出的安排。在我国,2023年8月15日起施行的《生成式人工智能服务管理暂行办法》,也支持生成式人工智能行业通过协议方式约定平台与使用者之间的权责关系。“暂行办法”第9条规定,“提供者应当与注册其服务的生成式人工智能服务使用者签订服务协议,明确双方权利义务。”

第二,技术中立。

值得注意,生成式人工智能的内容输出模式,决定了其在版权侵权问题判定上存在天然的特殊性。

我们需要首先思考,用户利用AIGC服务生成内容的行为究竟是一种版权法规制的“公开传播”行为,还是一种不受版权法规制的“个人使用”行为?目前来看,无论是“文生文”还是“文生图”领域的AIGC产品,生成的内容都是以对话形式存在于封闭的用户交互界面之中,原则上都可以被认定为是一种非公开的个人使用行为。

从平台责任角度来看,AIGC服务提供者在平台属性和责任判断上,具有较为明显的技术中立性特征。

从内容生成角度,AIGC平台本身不会主动输出任何内容,也不会事前存储未来将会输出的内容。从内容传播角度,前边也已经提及利用AIGC平台生成的内容不会向不特定第三方主体呈现展示;此外,对于生成内容后续是否加以公开传播以及如何进行公开传播,实际是由使用者而非AIGC平台享有决定权。

2024年2月8日,广州互联网法院在审理的“生成式AI侵权(奥特曼)案”中,就AIGC服务提供者侵权赔偿损失责任的认定指出,“……相关类案判决认为,生成式人工智能具有一定的工具属性。生成式人工智能既可以用于合法目的,也可以用于非法目的……”2024年3月21日,美国《田纳西州确保肖像、声音和图像安全法案》通过,强调了对于“内容创造工具开发和提供者的责任认定”需要关注“技术中立性”的要求,“对于软件提供者,只有当其软件的‘主要目的’是未经授权生成个人的姓名、照片、声音或肖像时,才会承担责任。如果软件生成侵权内容的能力是次要的或者与其他目的相关,那么软件提供者可能不会承担法律责任。”

第三,平台责任。

虽然生成式人工智能的内容输出模式存在特殊性,并且生成式人工智能服务平台具备天然的技术中立性,但鉴于其庞大的内容输出能力,客观上还是存在提升社会整体版权侵权传播风险的可能。有研究表明,按照ChatGPT在2023年初的内容生成能力,仅14天便可以输出相当于1440年古登堡印刷机发明以来,人类社会全部印刷作品的内容总量。

面对新技术、新业态带来的新平台责任,应当说版权领域的责任判断一直都是风向标。作为全球平台责任基石的“避风港制度”,便是从版权领域发展而来,并进一步向其他民事权益领域延伸。生成式人工智能技术发展带来的一个总体趋势是,使得我们对平台版权责任的关注,从“内容传播”领域转向“内容生成”领域。内容传播平台的版权责任判定较为传统,而以AIGC服务提供者为代表的内容生成平台的版权责任判定则是一个全新的议题。

目前,各界关于大模型服务提供者直接侵权、间接侵权亦或是共同侵权的讨论仍在继续,远未达成一致意见。但从解决产业发展现实问题的角度,其实更需要关注的是,如何从防范化解社会整体侵权风险、强化版权人利益保护以及促进保障新产业与新技术发展角度,科学的认定AIGC平台的版权保护注意义务,也即AIGC平台可以采取哪些实践中有效、成本上合理、技术上可行的侵权应对措施。整体来看,可以从技术、规则与预防三个层面看待AIGC平台版权保护注意义务问题。

第四,注意义务。

技术层面,能否通过“调整模型参数”和“删除被训练语料库中的素材”来避免版权侵权?一方面,需要认识到从技术角度着眼,大模型一旦训练完毕便无法将特定作品内容对应的特定模型参数加以单独删除,此外特定作品与特定参数之间也并非简单的一一对应关系,除非用剔除特定作品后的新语料集对该模型加以再次整体训练。但明显这一做法成本过高,实操中很难落地执行。另一方面,删除语料库中的特定被训练作品实操中是可行的,但却并没有现实意义。因为只要训练完毕,删除语料的行为不会对已经训练好了的模型参数和模型可能输出的内容产生任何影响。

规则层面,“避风港制度”既有“通知删除”机制是否仍然有效,科学的必要措施行为应是如何?一方面,平台实际上无法直接删除特定用户账号中的侵权内容,因为该侵权内容存储在用户PC或移动端的设备中而非平台的服务器中。这和此前的内容传播平台存在明显差异,因为不存在用户将特定内容上传到平台服务器这个环节。但平台可以采取与其实际技术能力相匹配的措施,例如通知涉嫌侵权的用户不得进一步传播侵权内容,并根据侵权行为的严重程度采取类似“三振出局”的手段惩戒相关用户。另一方面,平台还需要对生成内容进行打标,否则版权人难以根据侵权内容追溯到特定平台;同时平台也需要建立投诉举报机制,否则权利人也没法要求平台采取上述侵权制止举措。

预防层面,能否通过“内容”和“关键词”过滤机制来避免大模型输出侵权内容?这里涉及三个核心问题。第一,过滤机制的运行有赖于侵权内容比对库的存在。这也就需要权利人与AIGC平台建立事前的合作机制。第二,过滤比例的技术难题。AIGC平台可以过滤掉100%或99%相同的内容,但过滤掉10%或20%相似的内容便存在现实困难。需要思考是否平台积极履行了过滤义务便可以免责,而不应在技术层面过于苛求。最后,过滤机制天然存在“技术误伤”的问题。特别是针对关键词的过滤,存在很大可能会影响用户的正常使用,这也是实操中需要关注的问题。



推荐阅读
朱开鑫:《AI生成与版权保护》

朱开鑫:《一文读懂:AI大模型训练中的核心版权问题》

👇 点个“在看”分享洞见

继续滑动看下一个
腾讯研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存